Back
从解决单一任务到解决一类任务:详解目标导向 RL 的数学形式化。涵盖通用价值函数近似 (UVFA) 理论,以及解决稀疏奖励难题的核心技术——事后经验回放 (HER)。
强化学习
rl笔记
goal-conditioned rl